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一 种 改进 的 个 性 化 查询 引文 推荐 方法 
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摘 3E: 为 充分 利用 文本 内 容 的 上 下 文 信息 ， 结 合 图 模型 及 查询 向 量 的 构建 方法 ， 提 出 一 种 融合 查询 内 容 信息 的 个 性 
化 引文 推荐 方法 。 通 过 三 种 论文 信息 构建 三 层 图 模型 , 并 在 不 同 层 上 设置 不 同 参数 , 调整 节点 向 不 同 层 次 的 跳 转 概率 ; 
利用 word2vec 技术 构建 的 查询 向 量 ， 可 以 有 效 利 用 文本 上 下 文 内 容 信息 ， 使 相似 的 文章 在 距离 上 更 加 接近 ,进而 对 候 
选 文章 进行 评分 预测 与 论文 推荐 。 在 Association of Computational Linguistics Anthology Network 数据 集 上 进行 计算 分 
析 ， 相 同 查询 下 与 原 有 的 方法 相 比 在 recall@N 上 平均 提高 约 7%， 在 NDCG@N 上 平均 提高 约 11%。 实 验 结果 表明 该 
方法 可 以 使 引文 推荐 的 质量 得 到 有 效 的 提升 ， 能 够 获得 较 好 的 推荐 效果 。 
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Improved method for personalized query citation recommendation 
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(1. College of Information Engineering, Northwest A & F University, Yangling Shanxi 712100, China; 2, School of Automation, 
Northwestern Polytechnical University, Xi'an 7110072, China) 


Abstract: To make full use of the context information of the papers, combined with the construction method of graph model 
and query vector, this paper proposed a fusion query information personalized citation recommendation method. Built a three 
layer graph model through three kinds of paper information, and set different parameters on different layers to adjust the jump 
probability of nodes to different levels; the query vector constructed using word2vec technology can effectively use the text 
context information, so that similar papers are closer to the distance, and then the candidate papers are predicted and 
recommended. Computational analyzes performed on the Association of Computational Linguistics Anthology Network dataset 
showed an average increase of about 7% over recall@N and an average increase of about 11% over NDCG@N for the same 
query compared to the original method. Experimental results show that the proposed method can effectively improve the quality 
of citation recommendation and get better recommendation results. 
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文 引 用 网 络 和 作者 合作 关系 网 络 来 挖掘 论文 和 查询 者 之 间 相 互 

关系 进行 推荐 , 用 到 的 信息 如 用 户 标 签 向 或 用 户 历史 信息 喇 , 但 

科技 论文 推荐 的 研究 是 为 满足 研究 人 员 引 用 需求 ， 推 荐 少 ”CEF 这 种 方法 具有 数据 稀疏 、 冷 启动 和 可 扩展 性 等 问题 571。 

量 的 并 与 他 们 研究 内 容 相关 的 科技 论文 申 。 目 前 ， 使 用 最 广泛 随 着 复杂 蜡 构 信 息 网 络 研究 的 兴起 ， 基 于 图 模型 的 推荐 方 

的 推荐 技术 是 基于 内 容 过 滤 (content-based filtering，CBF) 和 法 受到 越 来 越 多 的 关注 外。 现 有 基于 图 的 推荐 方法 使 用 数据 集 

基于 协同 过 滤 (collaborative filtering, CF) Pl. CBF 从 文本 内 ”各 种 关联 信息 等 来 构建 图 模型 (如 文献 [9]), 把 引文 推荐 作为 一 

容 中 提取 到 的 单词 或 者 根据 一 定 方法 获得 文章 主题 层面 的 研究 项 引用 链接 预测 工作 ， 如 West 等 人 09 提 出 的 基于 引用 关系 图 

内 容 ， 从 而 推荐 与 查询 相 匹配 的 论文 。 但 同时 CBF 具有 传统 信 ”的 层次 聚 类 算法 来 确定 论文 的 相关 性 ， 并 根据 论文 在 这 些 聚 类 
息 检 索 所 存在 的 问题 ， 如 语义 模糊 性 91。CF 方法 主要 是 利用 论 ”中 的 重要 性 进行 推荐 。 为 解决 引用 关系 图 的 稀 琉 和 噪音 问题 ， 
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l ChinaXiv 合 作 期 剧 
录用 稿 E 飞 ， 等 : 一 种 改进 的 个 性 化 查询 引文 推荐 方法 
Zhou 等 人 0 提出 了 一 种 新 的 整合 了 引用 关系 和 作者 关系 来 衡 n 论文 数量 
量 论文 相似 度 的 推荐 任务 的 分 解 策略 图 模型 。 然 而 ， 该 方法 主 k 关键 字 个 数 
要 强调 引文 网 络 的 链接 作用 ,忽视 了 数据 集中 的 其 他 有 用 信息 。 Mp nxn 的 论文 引用 关系 矩阵 
Pan 等 人 中 利用 引用 关系 和 内 容 信息 形成 一 个 异 构 网 络 ， 使 用 Mas mxm 的 作者 关系 矩阵 
甘于 图 的 相似 度 学 习 算 法 执行 推荐 任务 。Meng 等 人 0 基于 作 Mm xf 的 关键 字 矩 阵 
者 ， 论 文 ， 词 和 主题 四 个 层面 构建 异 构图 模型 ， 提 出 了 个 性 化 Map mxn 的 作者 -论文 关系 矩阵 
推荐 算法 ， 在 构建 关键 字 层 时 用 到 了 latent Dirichlet allocation Mpw n*k 的 论文 -关键 字 关 系 矩 阵 
(LDA)13 或 者 TF-IDF0431。 但 是 TF-IDF HEW IRI) 38 4 n+tm+tk 个 元 素 的 查询 向 量 
没有 考虑 词语 之 间 的 语义 信息 。Ren 等 帆 认为 一 些 目 标 文章 查 dp 包含 于 q I n 个 元 素 的 论文 向 量 
询 进 行 推荐 结果 产生 的 过 程 是 不 同 的 ， 因 此 他 们 提出 了 一 种 软 qa 包含 于 4 的 m 个 元 素 的 作者 向 量 
聚 类 方法 来 解释 这 种 行为 差异 。Wang 等 人 05 通 过 基于 主题 建 d» BET q 的 m 个 元 素 的 关键 字 向 量 
模 和 内 容 分 析 的 概率 模型 将 文本 内 容 融 入 到 传统 的 矩阵 分 解 方 0 词 向 量 相似 度 阔 值 
法 中 去 。 1.2 ”基于 个 性 化 查询 的 文献 推荐 方法 

上 述 方法 存在 两 个 方面 的 问题 : a) 这 些 方 法 没有 考虑 没有 1.2.1 三 层 图 模型 
考虑 到 词 与 词 之 间 的 上 下 文 之 间 的 关系 ; b) 查询 中 没有 用 到 查 为 了 尽 可 能 有 效 地 利用 数据 集中 信息 进行 推荐 ， 本 文 构 建 
询 内 容 与 候选 集合 论文 的 关系 。 本 文 利用 作者 关系 、 论 文 引 用 了 多 层 图 网 络 模 型 。 如 图 1 所 示 ， 该 图 模型 包含 三 种 不 同类 型 
关系 和 论文 内 容 等 信息 构建 三 层 图 模型 ， 在 层 与 层 之 间 添 加 相 的 实体 一 作者 、 论 文 、 关 键 字 ， 存 在 的 关系 有 作者 -作者 合作 关 
关 参 数 来 控制 模型 中 节点 跳 转 的 不 确定 性 。 在 此 基础 上 ， 利 用 R (Ri)， 作 者 -论文 关系 (Rz)， 论 文 -论文 引用 关系 R), ie 
研究 人 员 的 个 性 化 信息 和 上 下 文 内 容 信 息 构 建 查询 向 量 向 量 ， 文 -关键 字 包 含 关系 (R4) 等 四 种 。 因 此 ， 它 们 之 间 的 关系 可 以 
运行 带 重启 的 Random Walk 的 方法 ， 产 生 最 终 的 推荐 列表 。 本 ”归结 为 一 个 三 层 图 模型 ， 层 内 之 间 连 接 的 两 点 表示 两 个 相同 的 
文 所 提 方 法 具有 以 下 贡献 : 9) 文 本 内 容 表示 向 量 的 生成 ， 可 以 ” 实体 类 型 ， 层 间 的 链接 的 两 点 表示 两 个 不 同 实体 类 型 。 该 三 层 
更 有 效 的 利用 文本 上 下 文 信息 ; b) 在 不 同 节点 层 之 间 设 置 不 同 图 模型 可 以 表示 如 下 : G=<VE,M>, 其 中 V 表示 的 是 节点 的 集 
的 游 走 参数 ， 可 以 使 节点 的 跳 转 更 符合 实际 情况 ， 能 够 对 目标 合 。VV 包含 三 个 集合 : 作者 集合 Atanan.. am WLEE 
的 推荐 结果 进行 优化 。 P-(pupz...pu), XEFES V=fw1,w2,... wk}, EBI V-4 UP U 
1 ”本 文 方法 V. RE E 是 集合 V 中 存在 链接 的 边 ，E={<vivi>| vi.vj €V]. 


1.1 问题 定义 


为 了 能 够 简单 的 表示 和 直观 的 理解 ， 在 本 文中 把 文献 推荐 
问题 定义 为 训练 得 到 相关 论文 评分 列表 的 问题 Kg，P):OxP 一 尺 ， 


其 中 4g 表示 针对 


篇 文章 的 一 个 查询 向 量 , qE; p 
选 文献 , PEP; R 是 查询 结果 集合 ， 此 问题 是 根据 论 


的 异 构 关系 构成 的 。 通 过 训练 得 到 的 针对 查询 文献 与 候选 文献 


更 详尽 地 ， 本 文 把 个 怕 


为 一 篇 候 
文集 合 中 


之 间 的 得 分 列表 ra p)» 然后 根据 rq» p) 产 生 推 荐 结果 集合 。 
化 引文 推荐 问题 定义 如 下 : 给 定 一 个 
图 G 和 查询 论文 go 查询 关键 


论文 集合 中 相关 信息 构建 的 异 构 
F qw 和 查询 人 ye〈 如 果 该 查询 者 是 


mi 


己 知 的 ) 组 成 一 个 查询 向 量 


4=[qp，4a，4w]。 根 据 构 建 的 推荐 模型 ， 为 一 个 查询 4 推荐 一 个 
与 目标 文献 相关 的 候选 文献 子 集 。 表 1 是 给 出 了 本 文 用 到 的 一 
些 标记 符号 。 
表 1 符号 标记 
标记 符 标记 符 描述 
P 论文 集合 
4 作者 集合 
w 关键 字 集合 
o 查询 向 量 集合 
m 作者 数量 


M 是 关系 矩阵 ， 
重 。 


其 中 wij 表示 链接 节点 vi 和 节点 vj 之 间 的 权 


Y , 
) | 
bd Keywords — 


~ erd 


层 图 模型 


a) 作 者 层 。 当 查询 相关 文档 时 ， 作 者 的 可 靠 必 
EB 作者 关系 矩阵 Maa 时 ， 如 果 作 
9 合作 关系 ， 则 wy=wi=1; 如 果 两 个 作者 没 
系 wi-wj-0. EE, YE Map 中 ， 如 果 作 者 qi 是 论文 pj 所 


可 以 发 挥 重要 的 作 
者 ai 和 aj 


19。 在 构 对 


E 和 专业 知识 


者 ， 则 wy=wi=1; 如 果 不 是 则 


b) 关 键 字 层 。 在 Mww H 


Hu 


Wi7Wjr-0 s 


所 有 边 权 值 为 0， 对 于 Mew F 


上 文 作者 与 论文 关系 类 似 ， 如 果 论 文 pi 中 包含 关键 字 v 


wi=w;=l, B) wjwij-0. 


go 论文 展 。 与 上 


H^, Æ Mpp 中 ， 如 果 论 文 pi 引 用 了 论 


X pj wj =1， 则 wi; =0; WR 


篇 论文 之 间 不 存在 引 月 


IESU 
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de 中 各 个 单词 的 N 维 向 量 ， 单 词 wi 表示 为 w,=[w，… w] 
" ` x E rd BHO H Wi XIN II Wi F| WP Wi | 

根据 上 文 所 述 ， 本 文中 概率 转移 矩阵 M WEJ ILATE, 

BU Maa; Mpp, Mww. Mar, Maw, Mrw, Mwp, Mra, Mwa, 其 RIS A CH] gq; 中 各 个 单词 的 词 向 量 进行 累加 得 到 ， 得 到 入 


中 M4n=0，Mma=0。 一 篇 候选 文章 与 目标 文献 的 相关 性 可 以 通 
过 层 加 权 和 得 到 ， 计 算 如 下 所 示 : 


sp 中 X Mp ))*? X. Marla) 
P?P, 


aj?p, 


(1) 
v milwi) o 
wp, 
其 他 层 节点 的 相关 性 可 以 通过 相似 的 公式 计算 得 到 。 从 式 
(1) 可 知 通 过 调整 相应 的 参数 (a，p，y) 可 以 控制 层 节 点 从 


当前 层 游 走 的 下 一 层 的 概率 。 分 解 后 的 关系 矩阵 M 可 以 表示 成 
如 下 所 示 : 


QM rr BM a YM pw 
M= Q iM ap BM u 0 
QM w 0 0 


ENERE M 中 ，MPp(iy) 表示 三 层 图 模型 中 论文 疡 和 广 
之 间 的 引用 关系 矩阵 ，M44(z) 表示 模型 中 的 作者 是 作者 a; 和 
作者 a; 的 合作 关系 和 矩阵，M4ap(iy) 表示 模型 中 的 作者 -论文 关系 
ABE, Mn) 表示 图 模型 中 论文 -关键 字 关 系 矩 阵 。 并 且 在 算 
FE MM 中 Miar=Mp4'，Mwp=Mpwri。 各 个 位 置 所 对 应 的 值 如 上 文 
作者 层 ， 关 键 字 层 ， 论 文 层 所 述 

在 该 模型 中 ， 在 论文 层 的 一 个 节点 ， 有 三 种 可 能 的 运动 行 
为 : 运动 到 作者 层 或 者 是 关键 字 层 ， 亦 或 者 是 还 在 论文 层 ,， 月 
以 本 文 设 定 artaal. 本 文 还 假定 Bra. 因为 一 个 节点 肛 
次 游 走 之 后 及 可 能 在 作者 层 ， 也 有 可 能 调 出 作者 层 。 类 比 于 关 


| 


维 Meme) 计算 公式 如 下 所 示 : 
q.-|Ew- Se Ew. | o 


其 中 :n 为 某 篇 文章 的 单词 数量 。 同 样 的 方法 可 以 得 到 图 模型 中 
各 个 文章 的 内 容 进行 NV 维 向 量 空间 的 表示 ， 记 为 
pv-(pvij-1,2,....k) ， 其 中 大 为 图 模型 中 的 文章 数量 。 知 查询 向 
量 .XN], 候选 文章 向 量 pv- Y-[yr... 
相似 度 计 算 qr 内 容 向 量 与 各 个 候选 文章 pv 的 内 容 向 量 之 间 的 
相似 度 得 consine Gi (X.Y), RARU TFET: 


É qr-X-[xi,.. yx]; 通过 consine 


consin e( (X, Y) (3) 
ES EGES 
则 查询 向 量 g 中 研究 人 员 查 询 内 容 qr 与 图 模型 中 的 各 个 文章 的 
内 容 相似 度 向 量 gy 可 表示 为 


qla, con sin eq, py j),con sin e(q, pv), aai 5 
con sin e(q,, py. 小 con sin eq, py J] 


根据 上 述 过 程 可 以 得 到 查询 疝 量 gy 的 distributed 
representation 表示 。 

c) 在 关键 字 层 ， 本 文 利用 上 述 word2vec 的 方法 生成 关键 
字 的 向 量 ， 关 键 字 wi, w; 的 向 量 用 关 和 了 了 表示。 而 词 与 词 之 间 
两 者 之 间 的 consine 相似 度 来 表示 。 计 算 公 式 如 公 
UE qu (wis 
ig?E fri) I] 73 q-[qp. qo qw]. 使/ 


wj) —consine (X,Y). 


] Ex —JZEDSUM, RI 


键 字 层 ， 设 y=1。 通 过 这 些 约束 简化 参数 个 数 ， 所 以 矩阵 用 可 


以 有 如 下 表示 : 
QM re BM» Mw 
M= QM a (I-BM 0 
(-a.-aJM w 0 0 
122 查询 向 量 
与 Totti 等 人 馈 的 查询 向 量 不 同 ， 本 文 所 采用 的 三 层 模 型 的 
查询 向 量 q 的 构成 如 下 所 示 : 
a) 针 对 作者 的 查询 ge 表示 查询 作者 已 经 确定 , 针对 一 个 查 
询 对 象 u, 如 果 该 作者 存在 于 候选 作者 集合 中 , WE qa (4u)=1， 


否则 ， qa (i) =0, itus 
b) 在 进行 查询 时 , 研究 人 员 输 入 的 查询 内 容 是 几 个 独立 的 


用 上 面 的 概率 转移 矩阵 M 运行 推荐 模型 。 
13 ”推荐 模型 

为 了 能 给 目标 文献 推荐 出 合适 的 文章 ， 需 要 计算 目标 文章 
和 候选 文章 之 间 的 相关 性 大 小 。 因 此 ， 本 文 用 到 了 重启 动 随机 
游 走 (Random Walk with Restarts, RWR) #4131, H R (vi) 
表示 图 G 中 的 节点 与 目标 文献 的 相关 性 。G 中 所 有 节点 与 目标 
文献 的 相关 性 向 量 灵 可 以 通过 震 欠 代 得 到 , 计算 公式 如 下 所 示 : 

R'?-u-9)M R «64 (5) 

HP: 0 是 返回 起 始 节 点 的 重启 概率 ，M 是 图 G 的 权重 矩阵 。 
在 公式 5 中 ,初始 时 令 R=g。 计 算出 目标 文献 与 候选 文献 的 
相关 性 R 后， 本 文 所 要 的 结果 是 对 论文 的 评分 值 ， 即 Rp)， 选 
取 前 篇 R 值 较 大 的 论文 作为 推荐 返回 。 为 使 公式 5 EZ 


RE 


词汇 ， 而 非 具有 完整 语义 信息 的 文本 ， 利 用 文本 相似 度 计 算 方 
法 难以 得 到 。 词 向 量化 word embedding07 可 以 将 词 映 射 为 特征 
向 量 ， 利 用 向 量 之 闻 的 距离 来 逼近 词 与 词 之 间 的 语义 。 因 此 本 
文采 用 word2vec 中 的 CBOW 词 向 量化 模型 U7 生成 词 向 量 。 设 
研究 人 员 输 入 的 原始 查询 qu 为 m 个 单词 的 集合 ， 即 


q={wili=1,2,...,m}> AI] 


词 向 量 模型 训练 语料库 ， 可 以 得 到 q 


TPAR AES, mX M 和 4 进行 列 归 一 化 。 
本 文 的 推荐 算法 过 程 如 下 : 
a) 数 据 准备 。 对 数据 集中 的 论文 内 容 进 行 提取 ， 并 对 数据 

中 作者 一 文章 关系 、 作 者 一 作者 关系 、 文 章 一 文章 关系 、 文 

章 一 关键 字 关 系 进行 提取 。 

b) 模 型 构建 。 构 建 多 关系 图 模型 ， 用 矩阵 M 表示 ， 利 用 

word2vec 生成 词 向 量 ， 并 根据 词 向 量 生成 文本 向 量 ， 计 算 词 与 


iu 


Yit 


201 UR 


" 
m 
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词 之 间 的 相似 度 ， 并 计算 研究 人 员 输 入 的 查询 内 容 与 候选 文章 


之 间 的 关联 性 ， 并 根据 


R 并 与 M 相 乘 不 断 迭 代 ， 


排序 ， 输 出 文章 的 topN 的 列表 。 
2 ”实验 与 分 析 


为 了 验证 本 文中 所 提 的 算法 的 有 效 性 
^E 43 EX (recall) 和 归 一 化 折 损 累积 


所 提 


出 的 方法 


这 两 个 评价 指标 与 其 他 不 同 的 方法 做 实验 对 比 。 


究 人 员 生 成 查询 作者 向 量 ; 

c) fX E. 依照 式 (5) 所 示 的 随机 游 走 进 行 计算 ， 更 新 
直到 RR 收敛， 
qd) 结 果 输 出 。 对 R 最 终 值 ， 选 取 对 应 的 文章 维 


£8) R 的 最 终结 果 。 
度 向 量 ， 并 


， 本 小 节 将 进行 文中 
兽 益 (NDCG ) 
介绍 了 常用 


一 个 数据 集合 AAN (Association of Computational Linguistics 


(ACL) anthology network) 09]。 


据 集合 中 


Vg. 并 生成 关键 词 。 先 通过 下 


a) 删 除 没有 引用 关系 的 论文 ; 


没有 给 出 文章 的 摘要 信息 ， 需 要 对 摘要 进行 提取 工 


b) 提 取 文 章 摘 要 和 标题 ， 
于 三 个 字符 组 成 的 单词 ; 


并 删除 没有 摘要 和 标题 


c) 删 除 ! 


d) 删 除 售 


Ji]; 


e) 用 NLTK 
为 了 减少 噪声 数 提 


而 的 方法 对 文章 内 容 进行 预 处 理 : 


十 次 的 单词 ， 这 样 
本 文 使 用 2013 年 之 前 


一 共产 生 的 4，918 个 不 重复 的 单词 。 


的 stemmer 词 干 分 析 工 具 对 单词 进行 词 干 
居 ， 还 删除 了 在 整个 数据 集 的 语 料 中 词 频 少 于 


的 论文 ; 


化 ， 


前 发 表 的 11 129 篇 论文 候选 文章 集合 


来 建立 多 关系 的 图 模型 ,并 把 2013 年 发 表 的 1,375 篇 论文 的 作 
者 身份 ID 作为 查询 向 量 的 作者 部 分 ， 关 键 词 与 候选 文章 关键 


词 的 相似 度 作 为 查询 向 量 


的 内 容 部 分 ， 查 询 内 容 与 候选 文章 内 


2.1 实验 数据 容 的 相似 度 作 为 查询 向 量 的 文章 部 分 。 对 这 1 375 篇 论文 进行 
本 文 所 做 的 验证 测试 均 是 在 AAN 数据 集 上 进行 的 ， 该 数 ” 引用 文献 推荐 。 表 2 给 出 了 本 文 用 到 的 AAN 数据 集 进行 处 理 
据 集 包含 了 许多 ACL 期 刊 上 的 所 有 论文 。 未 经 处 理 的 数据 集 ”之 后 的 基本 统计 信息 。 被 引用 的 文章 表示 在 相应 的 范围 内 至 少 
合 包含 从 1965 年 到 2013 年 的 21，236 篇 文章 ， 并 且 有 论文 内 被 引用 了 一 次 的 文章 ， 引 用 关系 表示 在 相应 的 范围 内 总 共 的 引 
容 包 括 摘 要 和 题目 ， 论 文 出 版 年 份 ， 作 者 和 期 刊 等 信息 。 在 对 ”用 关系 。 
文章 关键 词 的 表示 时 ， 本 文 用 论文 标题 和 摘要 来 表示 ， 由 于 数 
K 2 AAN 数据 集 的 基本 统计 信息 
44 论文 数目 作者 数目 被 引用 的 文章 引用 关系 
2013 年 之 前 11,129 9, 744 9, 016 65, 891 
2013 年 1,375 1, 333 4, 822 11, 529 
2.2 评价 指标 
本 文 用 recall@N 值 Z0 和 NDCGG@N 值 吕 进行 来 对 推荐 结果 wecen HE ELI 55 /IDCG@N (7) 
的 准确 性 和 排序 质量 评测 ， 这 两 种 方法 被 广泛 应 用 于 信息 检索 
和 统计 分 类 领域 。 Hh: C 和 的 表示 和 上 文中 recaU@NX 中 的 表述 相同 , wj 表示 
a)recall@N。 在 信息 检索 领域 ,recall@N 衡量 的 是 检索 系 ” ”推荐 结果 列表 中 ， 排 名 为 j 的 文献 的 评级 ,rjE {0,1}ss, w=1 表 
统 的 查 全 率 ,在 本 文中 recall@N 是 Top-N 的 推荐 列表 中 实际 被 示 该 文章 是 一 个 相关 文献 ,w=0 则 意味 着 不 相关 。IDCGQ@N N 
引用 的 文献 数量 与 目标 文献 实际 引用 列表 中 文献 数量 的 比值 。 是 理想 状态 下 的 推荐 结果 排序 ， 计 算 公 式 如 下 : 
计算 公式 可 以 表示 为 incoew- $27 dis 
J R(p)oT(p) 7 log, (i+1) 
recall @ N = b» (6) n 
CE T(p) Jtr. REL 表示 推荐 结果 中 实际 相关 的 论文 集合 。 
Hp: C 表示 的 是 查询 列表 的 个 数 ，N 表示 的 是 推荐 列表 的 个 2.3 参数 调整 与 分 析 
数 。7T(p) 表 示 目 标 文献 实际 引用 的 文献 集合 , Rp) 表 示 推 荐 结果 在 推荐 系统 中 ， 最 初 的 概率 转移 和 矩阵， 通过 和 迭代 过 程 中 不 
中 文献 集合 。 所 以 R p) QT QD 表示 推荐 列表 中 实际 引用 的 。”” 断 重启 动 随机 游 走 模型 最 终 确定 节 点 的 概率 转移 矩阵 ,本 节 中 ， 
文献 集合 。 将 主要 分 析 一 个 1.3 小 节 中 所 提 到 的 重启 概率 参数 0。 
b)NDCG@N。recall@N 并 不 能 充分 评估 推荐 方法 的 有 效 不 同 的 0 值 对 最 终 的 推荐 结果 的 质量 有 着 不 同 的 影响 ， 所 
性 ， 一 个 好 的 推荐 系统 对 实际 相关 的 引用 文献 在 推荐 结果 中 的 “以 本 小 节 中 通过 本 文 提 出 的 方法 使 用 不 同 的 0 执行 相关 实验 。 
位 置 应 该 是 敏感 的 ， 显 然 ，recall @N 并 不 具有 这 样 的 功能 。 本 ”对 一 个 查询 向 量 的 节点 来 说 ，(1-9) 表示 从 当前 节点 过 渡 到 相 
文 希望 推荐 结果 中 的 相关 文献 出 现在 推荐 列表 的 靠 前 位 置 ， 因 ” 邻 节 点 的 概率 ， 而 9 则 代表 了 从 当前 节点 过 渡 到 初始 查询 向 量 
此 在 这 篇 文章 中 用 到 了 NDCGQ@N 来 衡量 推荐 列表 的 排序 。 ea ed ee y ccs A 


NDCG@N 的 定义 如 下 : 


返回 初始 查询 向 量 中 的 节点 的 概率 越 大 .图 2 显示 了 0 从 0.1 


到 0.9 时 的 recall@75、recall@100 和 NDCG@75、NDCG@100 


的 实验 对 比 。 
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0.4 


0.38 


0.36 


0.34 


recall@N 


0.32 


0.3 


0.28 
0.1 


图 2 不 同 重 


—HA— 75 一 9 一 100 


02 03 0.4 05 06 07 0.8 0.9 


重启 概率 0 


(a) 


启 概率 0 的 recall 和 NDCG 的 值 的 变化 。(a) 


NDCG@N 


区 


为 recall(a)75 和 recall@100, (b) 


如 图 2(a) 所 示 , 在 0.1-0.6 内 , 随 着 9 值 的 增 大 , recall@75 


和 recal1@100 随 之 变 大 。 当 0 从 0.6 改变 成 0.7 时 


, recall(a)75 


减 小 ， 而 recali100 则 变 大 ， 但 recal1@75 减 小 幅度 不 大 ， 当 


0 大 于 0.7 时 这 两 个 评测 指标 都 开始 下 降 。 从 而 本 文 得 出 ， 当 
0-0.7 Wf, recall()75 和 recal11@100 达到 最 优 值 ， 并 且 
观察 到 ， 当 0-0.1 时 ，recal1@75 和 recall@100 的 结果 


如 图 
大 致 相同 ， 当 


此 和 有 


2 (b) 所 示 ，NDCG@75 和 NDCG(2100 的 变化 | 
0 在 [0.1,0.7] 间 时 ， 
和 NDCG@100 总 体 呈 上 升 趋势 


指标 呈 下 降 趋 势 。 


从 图 中 
值 最 差 。 
线 


随 着 0 值 的 变 大 , NDCG(Q275 
在 [0.7,0.9] 之 间 ， 这 两 个 测 晶 
导出 ， 在 0-0.7 时 ，NDCG@75 和 


an 


I 


NDCG(Q)100 的 值 达 到 最 大 ， 当 0-0. mf, NDCG(QQ75 和 


NDCG@100 结果 最 小 。 
根据 图 


2 可 以 得 到 当 0—0.7 时 ，recalIl@N 和 NDCGON 达 


到 最 大 值 , 因此 本 文 把 0 的 值 确定 为 0.7。 根 据 相 关 分 析 表 明 不 


同 的 重启 概率 0 对 本 文 所 提 方 法 的 推荐 结果 有 着 不 同 的 影响 ， 


2.4 ”对 比 实验 


并 且 当 设置 0=0.7 I, ACH 


8 的 方法 的 推荐 效果 达到 最 好 。 


通过 五 个 不 同方 法 和 本 文 提 出 的 方法 


作对 比 来 说 明 本 文 提 


出 方法 的 有 效 性 。 这 五 种 方法 如 下 所 示 : 

a) 关 联 主题 模型 20 Crelational topic model, RTM). RTM 
是 sLDA 的 一 个 扩展 算法 ， 用 链接 作为 监督 来 训练 LDA 模型 。 
RTM 在 两 个 不 同 的 文本 数据 之 间 增 加 了 一 个 二 元 随机 变量 , 利 


主题 分 布 的 带 有 
在 本 文 实验 中 ， 设 


er 


引 


uM 


|! RTM 

b)Link-PLSA-LDAU?!, 
博客 和 LDA 生成 引用 
一 个 博客 , 推荐 列表 是 根据 引文 中 论文 的 主题 - 词 分 布 的 相关 性 


0.4 


o 
m 
X 


0:35 


01 02 03 O04 


* 


(b) 


因素 ， 并 且 考 虑 到 了 时 间 误 


网 络 模型 来 对 科技 论文 进行 排序 , CiteRank 使 月 


四 为 NDCG@75 和 
d)CiteRankP23l。.CiteRank 为 每 


E 75. —9— 100 


0.5 0.7 0.8 


启 概率 0 


0.6 


NDCGQ)100. 


个 


入 点 使 / 


减 ， 使 


0.9 


个 性 化 的 传送 
交通 动力 学 的 一 个 简单 的 
日 到 了 统计 力学 ， 


通信 供应 和 信息 网 络 的 知识 内 容 。 在 本 实验 中 ， 该 方法 的 衰减 


参数 t+ 设置 为 2.6。 
e)PopRank"^ 
该 方法 将 一 个 流行 的 传播 因 
引用 ， 
本 实验 中 设置 流行 的 传播 天 
本 文 


且 利 用 作者 论文 关系 和 出 版 信息 对 候选 论文 


. PopRank 是 PageRank 的 一 种 扩展 算法 。 


T PPF) 添加 到 一 个 对 象 的 每 一 个 


行 排序 。 


F PPF=0.3, WEJ 0.01. 


提出 了 一 种 基于 RandomWalk 的 论文 、 作 者 、 论 文 关 


键 字 的 三 层 图 模型 的 方法 (PAWRW)， 查 询 中 使 用 到 了 论文 相 


似 度 ， 作 者 关系 ， 关 键 字 相 
不 同 层 之 间 的 转换 概率 。 
表 3 是 不 同 的 方法 性 能 


I 


的 


似 度 作为 的 查询 向 量 


且 考虑 了 


对 比 的 结果 ， 


明显 地 可 以 看 到 随 着 
BK, recall@N 和 NDCGQN 的 值 都 会 随 之 变 大 。 从 不 同 


的 方法 对 比 中 可 以 看 出 ，PAWRW 的 实验 结果 均 高 于 RTM、 
Link-PLSA-LDA, LDA, CiteRank, PopRank 这 五 种 方法 在 AAN 


数据 集 上 ， 这 是 医 


为 本 文 的 实验 模型 中 融入 了 内 容 和 网 络 信息 


还 有 作者 信息 ， 而 仅仅 通过 


引 / 


j 关 系 或 者 是 内 容 信息 来 进行 相 


关 论 文 的 推荐 具有 一 定 的 局 


中 可 以 发 现在 所 有 指标 上 了 PopRank 


于 仅仅 依赖 文本 主题 相似 


Hadamard 积 的 SIGMOD 函数 来 推荐 论文 。 
的 主题 数目 为 60。 


Link-PLSA-LDA 使 用 PLSA 生成 


的 博客 ， 


在 本 文中 , 把 每 篇 文章 当成 


和 引用 论文 中 论文 分 布 的 相关 性 生成 的 。 在 本 实验 中 ，Link- 


PLSA-LDA 主题 数目 同样 设置 为 
cjLDA。LDA 是 一 个 文档 了 
中 首先 使 


主题 三 个 部 分 。 在 本 实验 


60. 
E 题 生成 模型 ， 包 含 文档 、 词 、 


H LDA 得 到 主题 信息 , 之 后 


E 荐 与 查询 高 度 相 关 的 主题 下 的 文章 ， 主 题 数 目 设置 为 70。 


有 方法 中 最 差 的 。RTM 和 Link-PLSA-LDA fi 


限 性 。 由 于 缺少 文本 信 


E, AK 3 


的 效果 明显 比 其 


也 方法 要 差 。 


度 信息 , LDA 各 项 指标 的 结果 是 所 


近 ， 并 且 要 优 于 LDA， 这 是 
息 和 其 他 一 些 额外 的 信息 来 


的 实验 结果 较为 相 


姑 为 这 两 种 方法 整合 了 引 } 


链接 信 


进行 主题 学 习 。 通 过 表 3 还 可 以 看 


出 ，CiteRank 与 LDA 相 比 ， 即 在 论文 内 容 的 基础 上 使 考虑 了 


时 间 因 素 没有 得 


E 荐 结果 


到 明显 提高 。 


/合作 期 刊 
录用 稿 & X, €; RET Eel Ns 3a 


3€ 3 不 同方 法 的 对 比 结果 


Top-N 25 50 Ta 100 
方法 recall NDCG recall NDCG recall NDCG recall NDCG 
PAWRW 0.2176 0.3084 0.2853 0.3429 0.3458 0.3891 0.396 0.3995 
RTM 0.1734 0.2738 0.2751 0.3225 0.3273 0.3851 0.3698 0.3841 
Link-PLSA-LDA 0.1725 0.2742 0.2576 0.3174 0.3207 0.3815 0.3647 0.3786 
PopRank 0.1341 0.1124 0.2254 0.2149 0.2911 0.2635 0.3092 0.2782 
LDA 0.1132 0.037 0.1473 0.083 0.1755 0.1207 0.1826 0.1865 
CiteRank 0.1233 0.052 0.1506 0.9254 0.1783 0.1327 0.1907 0.1941 
2.5 不 同 查询 向 量 的 对 比分 析 字 的 信息 都 可 以 使 推荐 效果 得 到 提升 ， 并 且 发 现 ， 添 加 关键 字 


最 后 ,为 了 分 析 查 询 向 量 对 PAWRW 推荐 结果 的 影响 ， 本 ”信息 之 后 的 推荐 效果 要 比 添加 文章 相似 度 信息 的 推荐 效果 好 。 
小 节 将 对 比 不 同 向 量 的 推荐 结果 ，gi 表示 查询 向 量 中 只 有 作者 。 同时 ， 还 可 以 发 现 ， 查 询 为 g 和 qa 情况 下 的 推荐 效果 比较 接 
庆 息 ， 没 有 论文 相似 度 信息 和 关键 字 信息 ， 即 gj=[0， qo Ol; W, 特别 是 recal1@N 的 值 。 这 是 因为 在 论文 相似 度 的 计算 过 程 

qlqr qe,0]， 包 含 作者 信息 和 论文 相似 度 信息 ， 而 不 包括 关键 。” 中， 虽然 也 用 到 了 word2vec， 但 比 关键 字 相似 度 的 计算 多 了 一 
T 字 信息 ; g3=[0, qe,9w]， 包 含 作者 信息 和 关键 字 信 息 ， 但 不 包括 。“ 步 ， 就 是 文本 向 量 进行 了 简单 的 相 加 ， 使 本 来 就 有 误差 的 词 向 
”文本 相似 度 信息 ，gqs 则 是 本 文中 所 用 查询 ， 包 含 了 作者 信息 ， ” 量 生 成 的 文本 向 量 误差 更 大 , 所 以 查询 g3 的 推荐 效果 要 比 qo 的 
论文 相似 度 信息 ， 关 键 字 信息 ，gi=[go, qe ql. 3E 4 为 各 不 同 ”推荐 效果 高 ,同时 也 从 侧面 说 明了 查询 g4 的 推荐 效果 为 什么 与 
查询 向 量 的 推荐 结果 。 qs 的 推荐 效果 在 性 能 指标 上 较为 接近 
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通过 表 4 可 知 ， 在 查询 语句 中 添加 文章 相似 度 信息 和 关键 
表 4 不 同 查询 向 量 推荐 结果 对 比 
Top-N 25 50 75 100 

recall NDCG recall NDCG recall NDCG recall NDCG 
qi 0.1446 0.1846 0.2171 0.3207 0.2617 0.3518 0.299 0.3541 
qa 0.1565 0.2537 0.2363 0.3469 0.2844 0.3812 0.3213 0.3885 
qs 0.1749 0.2743 0.2722 0.3128 0.3384 0.3402 0.3931 0.3716 
q4 0.2176 0.3084 0.2853 0.3429 0.3458 0.3891 0.396 0.3995 


recommendation by information network-based clustering [C]// Proc of the 
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20th ACM SIGKDD International Conference on Knowledge Discovery and 


本 文 提 出 了 一 种 结合 论文 引用 关系 、 作 者 关系 、 论 文 内 容 Data Mining. New York: ACM Press, 2014: 821-830. 

等 信息 的 三 层 图 模型 的 文本 推荐 方法 。 考 虑 到 一 篇 论文 被 推荐 。”[2] PAR, ERR, 文俊 浩 . 基于 评论 与 评分 的 协同 过 滤 算 法 [I]. 计算 
不 仅仅 与 同时 被 推荐 的 论文 相关 ， 还 与 这 篇 论文 的 作者 和 该 论 机 应 用 研究 , 2017, 34 (2): 361-364. (Li Weilin, Wang Chengliang, Wen 
文 的 内 容 相 关 ， 并 在 不 同 层次 类 型 的 关系 对 象 上 使 用 不 同 的 参 Junhao. Collaborative filtering recommendation algorithm based on reviews 
数 ， 使 某 节点 在 向 不 同 层次 的 节点 跳 转 时 的 概率 不 同 ， 构 建 概 and ratings [J]. Application Research of Computers, 2017, 34 (2): 361-364. ) 
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用 word2vec 的 方法 计算 文本 相似 度 及 词 的 相似 度 对 查询 向 量 in citation. networks [C]// Proc of the 25th International Conference 
进行 填充 ， 有 效 利 用 了 文本 内 容 的 上 下 文 信 息 。 之 后 基于 Companion on World Wide Web. 2016: 401-406 
Random Walk 对 相应 的 查询 给 出 相关 的 推荐 结果 。 实 验 表 明 ， [4] EFF, $R, ERR, 等. 基于 用 户 标签 的 微 博 推荐 算法 [J]. 计算 
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模型 中 词 关 系 的 信息 ， 未 来 的 研究 工作 在 对 模型 中 词 关系 进行 Application Research of Computers, 2017, 34 (1): 58-61. ) 
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